在當今的混合云和多云世界中,您需要比以往任何時候都更加確信自己掌握了服務級別協議 (SLA) 的性能。但是,您如何確保您的云提供商為您提供您所支付的費用?您可能已經閱讀或略讀過他們的 SLA。您如何確定他們是否滿足該 SLA?您可以通過監控 SLA 指標來做到這一點。
在這篇文章中,您將了解 SLA 以及 可用于監控其性能的指標。這可以幫助您追究您的提供者和您的團隊的責任。您還將看到一些 SLA 指標示例,以幫助您了解可以監控的確切內容。
什么是 SLA?
SLA 是提供商與其客戶之間的合同,定義了其承諾提供的服務水平。它通常涵蓋一項或多項提供的服務,例如IaaS(如 AWS EC2 ) 或 PaaS(如 Azure SQL 數據庫)。通常,提供商會根據他們的 SLA 為您跟蹤性能。您可能會向組織的最終用戶提供 SLA,因此您也應該這樣做。
如果提供商未能達到服務水平,通常會產生后果。服務積分是一種常見的補救措施,如果客戶不滿足其 SLA,供應商會向他們提供補償。您應該定義可以監控的指標,以便您知道何時未滿足這些指標。
什么是 SLA 指標?
SLA 指標是一組可以衡量和監控的關鍵績效指標 (KPI)。您可以監控任意數量的 SLA 指標,但您可以將其中的許多指標分為五種類型。
1. 可用性
特定云資源的可用性是它為其用戶工作的百分比或時間長度。您希望可用性盡可能接近 100%。以下是可用性的幾個指標和示例。
正常運行時間:正常運行時間定義實例啟動、運行和準備使用的時間百分比。一個示例是您的 AWS EC2 實例由于 AWS 中斷而在沒有任何重新啟動的情況下運行的時間百分比。這樣的實例有 100% 的正常運行時間。如果您的 EC2 的 AWS SLA 為 99.99%,則 AWS 正在滿足其 SLA。
服務可用性:服務可用性是服務請求返回預期響應的時間百分比。例如,您的組織使用的 Azure Web 應用服務能夠在用戶需要登錄時始終做出響應。如果您的監控顯示此服務突然失敗,則 SLA 性能會受到影響。
2.響應時間
任何云資源的響應時間或延遲是請求后響應返回所需的時間。您希望響應時間盡可能短,因為它最直接地影響用戶體驗。這里有幾個例子:
MTTR:平均修復時間 (MTTR) 是解決特定問題所需的時間長度。R 可以表示修復或解決,具體取決于系統,但期望是相同的:您關心供應商或您的團隊解決問題的速度。一個示例是衡量從您第一次在監控工具中觀察到區域云網絡中斷到該警報消失之間的差距。
事務響應時間:事務響應時間度量是事務請求返回響應所需的時間長度,通常以毫秒為單位。假設您組織的一位用戶通過您的Amazon SES 服務發送了一封電子郵件。單擊“發送”按鈕后確認已發送電子郵件所需的時間衡量交易響應時間。
3. 吞吐量
吞吐量指標是您的云資源在一段時間內發送和接收的數據量。您希望吞吐量與系統支持的一樣高。這里有幾個例子:
磁盤寫入字節:磁盤寫入字節數是衡量系統在一段時間內將數據字節寫入磁盤的速率的指標,通常以秒為單位。一個示例是用于保存用戶上傳的大文件的Amazon S3 存儲系統。他們可能喜歡咖啡,但您不希望他們在將文件上傳到您的系統并等待處理后去拿杯咖啡。這種情況下的低吞吐量對您的 SLA 性能不利。
鏈路吞吐量:鏈路吞吐量是在一段時間內可以通過給定網絡鏈路傳輸的數據包數據量。該指標以每秒字節數或比特數表示。一個例子是紐約市和倫敦地點之間的網絡連接,傳輸速度為 150Mbps。如果鏈接吞吐量低于定義的警報閾值,您可以在用戶受到影響之前收到警報(如果需要)。
4. 錯誤
錯誤度量定義了對特定資源的失敗請求的數量或百分比。這里有幾個例子:
HTTP 錯誤:HTTP 錯誤是用戶發送的請求中返回意外 HTTP 狀態代碼的百分比。例如,用戶在調用 API 的 Web 應用程序上收到可怕的 HTTP 500“服務器不可用”錯誤。任何此類錯誤都值得關注,應該進行調查,因為它可能是由于網絡中斷造成的,這可能會影響您的 SLA。
磁盤讀取錯誤:磁盤讀取錯誤指標是失敗的磁盤讀取請求的百分比。一個示例是PostgreSQL 請求從存儲數據庫數據的磁盤中提取數據。讀取錯誤可能是存儲問題的結果,這可能會影響您的 SLA。
5.利用
利用率指標是云系統資源的使用百分比。這里有幾個例子:
磁盤利用率:磁盤利用率是給定服務器實例上正在使用的磁盤空間量。一個示例是可用磁盤空間不足的 Azure 實例。實例磁盤利用率將告訴您還剩多少空間,以便您確定是否需要升級。沒有更多磁盤空間的服務器實例肯定會觸發正常運行時間 SLA 違規。
內存利用率:內存利用率是系統使用的 RAM 量。一個示例是配置了太少內存的 AWS 實例。實例內存利用率將讓您知道在給定時間段內使用了多少內存。這可以幫助您確定是否需要獲得更多 RAM 或執行臨時重啟以釋放更多內存。